Isolation Forest (en español Bosque de aislamiento) es un algoritmo para la detección de anomalías en los datos desarrollado inicialmente por Fei Tony Liu en 2008.[1] Isolation Forest detecta anomalías utilizando árboles binarios. El algoritmo tiene una complejidad temporal lineal y requiere poca memoria, por lo que funciona bien con grandes volúmenes de datos.[2][3] En esencia, el algoritmo se basa en las características de las anomalías, es decir, que sean pocas y diferentes, para detectarlas. En el algoritmo no se realiza ninguna estimación de la densidad. El algoritmo se diferencia de los algoritmos de árbol de decisión en que sólo se utiliza la medida o aproximación de la longitud del camino para generar la puntuación de la anomalía, no se necesitan estadísticas de los nodos hoja sobre la distribución de clases o el valor objetivo.
El bosque de aislamiento es rápido porque divide el espacio de datos de forma aleatoria, utilizando un atributo seleccionado al azar y un punto de división seleccionado al azar. La puntuación de la anomalía está inversamente asociada a la longitud del camino, ya que las anomalías necesitan menos divisiones para ser aisladas, debido a que son pocas y diferentes.
© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search